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Kansainvalisten tietokantojen maakohtaisten rikostilastojen tiedonlouhintaa 


Vaitostutkimuksessaan tekija sovelsi tiedonlouhinnan laskennallisia valineita kansainvalisista lahteista 
etsimiinsa rikollisuuden tilastotietoihin tehdakseen vertailevaa tutkimusta eri maiden valilla ja eri vuosien 
valilla yhdessa maassa, Yhdysvalloissa. Tutkimuksen tekija kerasi datansa paaosin YK:n tietokannoista seka 
Yhdysvaltojen ja Suomen tilastokeskuksen tietokannoista. Modernin yhteiskunnan hyvinvoinnin, vakauden 
ja kehityksen turvaamiseksi rikollisuuden torjunta ja valvonta ovat polttopisteessa. Rikollisuuden 
esiintymista voidaan kuvata useilla tekijoilla eli muuttujilla, jotka eivat useinkaan ole hallintokoneiston, 
yhteiskunnan tai kansalaisten kontrolloitavissa. Nama ovat luokiteltavissa kolmeen ryhmaan, demografiset, 
taloudelliset ja historialliset muuttujat. Nama nayttelevat toisaalta nakyvaa ja toisaalta nakymatonta roolia 
kuvatessaan rikollisten ilmioiden maantieteellista jakaumaa kansainvalisella tasolla, kasittaessaan 
maarattyjen rikosten piirteita seka muodostaen laskennallisen perustan maiden klusterointiin eli 
ryhmittelyyn, jossa muuttujat maarittavat rikollisuuspiirteiltaan keskenaan laheiset maat. 


Mainitun ryhmittelyn suorittamisessa tiedonlouhinnan menetelmat osoittautuivat hyodyllisiksi. Naita 
laskentamenetelmia on aiemmin sovellettu mita erilaisimmille datoille, mutta vaitostutkimuksen 
makrotason eli maakohtaisten rikostilastojen tiedonlouhinta lienee ensimmaisia alallaan. Tutkimuksen 
tekija kaytti erityisesti laskentamenetelmaa nimelta itseorganisoituvat kartat ryhmittelyssa, vertailussa ja 
myos visualisoinnissa. Tekija selvitti myos demografisten, taloudellisten ja sosiaalisten muuttujien suhteita 
korrelaatioina rikostilastomuuttujiin nahden eri maissa. Niin ikaan han selvitti itseorganisoituvien karttojen 
ja muiden tiedonlouhintamenetelmien kayttokelpoisuutta rikollisuuden analysointiin maittain. 



Tutkimus kattoi viisi osajulkaisua maakohtaisen datan kasittaessa 22:sta 68:aan erilaista muuttujaa. 
Kolmessa osajulkaisussa tutkija analysoi tiedonlouhinnalla noin puolen sadan maan joukkoja. Yhdessa 
osajulkaisussa han tutki ajallisesti rikollisuuden muutosta Yhdysvalloissa 48 perattaisen vuoden aikana 
alkaen vuoden 1960 rikostilastoista. Yhdysvalloissa, joista dataa oli saatavissa pitkittaistutkimusta varten, 
rikollisuus oli lisaantynyt tasaisesti 1990-luvulle asti, jonka jalkeen vaihtelevien syiden takia, kuten 
rikollisuuden torjunta, rikollisuus on paaosin vahentynyt. Viimeinen osajulkaisu kasitti lahes koko maailman, 
181 maata, tiedonlouhintaa erilaisten demografisten, taloudellisten ja sosiaalisten muuttujien suhteesta 
vain yhteen muuttujaan, henkirikoksiin. Tama oli kohteena keskeisyytensa vuoksi ja kaytannollisen syyn 
vuoksi, kun kyseista tietoa oli saatu YK:n tietokantoihin lahes kaikista maista. Jokin toinen rikollisuuden 
muoto, esimerkiksi tietoverkkorikokset, ei olisi ollut tallainen. 


Vaitostutkimuksen ensimmainen laaja osuus oli datan eli rikostilastojen kerays ja valikointi em. julkisista 
tietokannoista. Kunkin osajulkaisun muuttuja-ja maavalikoimaan vaikuttivat rikollisuuteen mahdollisesti 
tavalla tai toisella liittyvien muuttujien tilastointi ja eri maista saatavilla ollut data seka Yhdysvalloista 
erityisesti vuosilta 1960-2007 saatavilla ollut data. Tutkija analysoi tiedonlouhinnan esikasittelymenetelmin, 
mitka muuttujista erottelivat eri maita voidakseen tehokkaasti hyodyntaa valitsemiaan muuttujia 
luokitukseen ja ryhmittelyyn. Tutkimuksessa oli kaytossa useita eri luokitusmenetelmia (algoritmisessa 
mielessa ohjattua oppimista) yksinkertaisesta lahimman naapurin etsinnasta tukivektorikoneisiin. Naiden 
antamia tuloksia tutkija vertasi itseorganisoituvien karttojen (ohjaamatonta oppimista) antamiin 
voidakseen todeta riittavaa yhdenmukaisuutta tulosten valilla, ts. todentaen tulosten mielekkyyden ja 
oikeellisuuden. Lisaksi han kaytti apuna tilastollisia menetelmia johtopaatostensa tueksi. 


Tutkimuksen tekija saattoi todeta itseorganisoituvien karttojen ja muiden tiedonlouhinnassa kaytettavien 
koneoppimismenetelmien soveltuvan hyvin maakohtaisten rikostilastojen tiedonlouhintaan ja analyysiin. 
Tutkimus kuvasi kiinnostavia tuloksia, maakohtaisia eroja ja samankaltaisuuksia ja hieman yllattaviakin 
loydoksia, kuten lievempien omaisuusrikostyyppien yleisyyden vauraissa maissa ja vahaisyyden monissa 
koyhissa maissa. Monet maat sijoittuivat ryhmittelyssa odotettavissa olevin maaryhmiin, mutta toisaalta 
naissa oli myos vaihtelevia eroja. Kiinnostavaa tassa oli luonnollisesti laajimmin tutkittu rikostyyppi, 
henkirikos ja taman kanssa korreloivat muuttujat. 
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